¿Cuándo la supervisión de trayectoria permite RL offline eficiente? Descubre cuándo la supervisión a nivel de trayectoria permite un aprendizaje por refuerzo offline eficiente, con el algoritmo OPAC y sus límites teóricos. 2026-06-18 · 2 min